Automation of Systematic Reviews with Large Language Models
该研究验证了名为 otto-SR 的大语言模型工作流在文献筛选、数据提取和偏倚风险评估等系统性综述核心任务中的卓越性能,证明其不仅能高效自动化这些耗时环节,还能快速复现并更新现有综述,从而为自动化、可扩展且可靠的知识合成奠定了基础。
199 篇论文
该研究验证了名为 otto-SR 的大语言模型工作流在文献筛选、数据提取和偏倚风险评估等系统性综述核心任务中的卓越性能,证明其不仅能高效自动化这些耗时环节,还能快速复现并更新现有综述,从而为自动化、可扩展且可靠的知识合成奠定了基础。
该研究通过分析 Reddit 社区帖子发现,自然环境对青少年社交焦虑的影响具有双重性:虽然户外活动常能缓解焦虑并改善情绪,但部分患者因害怕被观察或评判而感到环境触发焦虑,因此未来的自然干预措施需针对社交焦虑特有的评价恐惧进行精心设计。
这项研究利用可穿戴眼动追踪技术和回顾性出声思维协议,揭示了初级保健医生在模拟自杀筛查问诊中因需频繁查阅电子病历而分散了对患者的视觉注意力,并倾向于在确认风险指标后再进行相关讨论。
本研究通过结合临床专家知识与因果结构学习算法,在儿科重症监护室中成功构建了仅使用 14 个生物标志物即可达到与全量模型相当预测性能(AUPRC 0.79)的急性脑功能障碍简约预测模型,有效提升了模型的可解释性与临床实用性。
本文提出了 ED-Triage-Agent 框架,这是一个通过多智能体协作在急诊分诊中辅助临床决策、支持从患者信息采集到 ESI 分级全流程人机协同的系统,旨在通过可解释的推理增强临床判断并保留医生自主权。
本文介绍了专为老年辅助生活设计的 Lilo 引擎,这是一个通过强制实施结构性不变量(如无条件运行的危机检测守护层和输出反射层)来确保 100% 危机召回率和确定性安全轨迹的 5 层治疗性 AI 管道,旨在解决现有智能体编排系统在高风险场景中不可接受的故障率问题。
这项基于美国 1900 多万患者数据的研究发现,超活动型埃勒斯 - 当洛斯综合征(hEDS)的患病率可能高于此前认知,且该病患者在感染新冠病毒后发展为长新冠的风险显著更高,病毒甚至可能诱发或揭示此前未被诊断的 hEDS 症状。
该研究通过评估多个大语言模型(LLM)在系统评价筛选中的表现,发现采用冲突解决和多数投票等协作策略的 LLM 组合在保持高排除精确度的同时显著提升了纳入召回率,并有效减少了人工工作量。
该研究表明,在识别 NIH 阿片类药物成瘾治疗资助项目创新点时,经过精心提示的 ChatGPT-4.0 在描述深度与相关性方面的表现显著优于人类编码者,显示出大语言模型在提升定性研究评估效率与质量方面的潜力。
该研究提出了名为 Sino-US-DrugQA 的双语基准数据集,通过包含 11,871 个基于中美药监法规的问答对,系统评估了大语言模型在跨司法辖区药物监管合规中的表现,发现尽管模型在单语查询中表现尚可,但在跨辖区对比推理任务上仍存在显著差距,表明当前技术尚需专家复核以支持高风险场景的部署。
该研究对比了随机森林(RF)与随机生存森林(RSF)在 ASPREE 试验中预测无残疾长寿结局的表现,发现两者在区分度和校准度上相当,表明引入时间因素的 RSF 并不总能比 RF 提供更准确的预测。
该研究通过在 4,018 名 NHANES 患者数据上对来自四大厂商的五种大语言模型进行基准测试,证实了基于标准化提示框架的 AI 生物标志物分析系统在不同供应商模型间均能保持临床级精度,从而验证了构建厂商无关的临床 AI 系统的可行性。
该研究提出并评估了一种将大语言模型(LLM)与混合整数线性规划(MILP)求解器相结合的混合模型,通过利用 LLM 进行个性化筛选和最终方案选择、MILP 进行精确营养计算,成功生成了在营养准确性、个性化、实用性和多样性方面均优于单一模型的综合膳食计划。
该研究提出了一种结合表型相似性与网络传播的计算流程,通过利用 Orphanet 疾病层级关系优化罕见病候选诊断排序,显著提升了诊断准确率及临床一致性。
这项针对 6,026 份门诊病历的匹配前后研究显示,环境 AI 系统显著改变了临床文档的语言表达与组织方式,使病史部分(HPI)的叙述更加结构化、句法更复杂且连贯性更高,而评估与计划部分(A&P)的变化则相对较小,表明此类技术的影响具有供应商依赖性和章节特异性,因此评估需超越效率指标,进一步考量其对沟通、认知负荷及下游分析的影响。
这项基于英国生物样本库的研究通过整合 23 种生物衰老时钟,揭示了睡眠时长与衰老及疾病风险之间存在"U 型”关系,表明每晚 6.4 至 7.8 小时的睡眠最有利于延缓多器官系统衰老并降低全因死亡率,而睡眠过短或过长则与加速衰老及多种疾病风险增加相关。
该研究发现,在临床 AI 系统中,传统的检索增强生成(RAG)反而显著增加了幻觉风险,而将患者数据转化为具有明确溯源的“结构化表征”则能更有效地降低幻觉并提升安全性。
该研究提出了一种基于大规模基础模型的深度学习框架,通过分解视网膜老化信号中的规范性年龄成分与生理变异成分,实现了对视网膜生物年龄的可解释性预测,并揭示了其与全身炎症及血流动力学变化等系统性健康因素的关联。
该研究开发并验证了一种基于电子健康记录审计日志的算法,能够以 91% 的高准确率识别住院患者每日的主要一线临床医生,从而为评估跨专业团队协作和护理连续性提供了可扩展的解决方案。